Plan and Solve論文
https://scrapbox.io/files/65a0067513691f0025517bd0.png
論文情報
タイトル:Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
発行日:2023年5月
著者:Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, Ee-Peng Lim
所属:Singapore Management University
論文のポイント
https://scrapbox.io/files/65c45b7cb540000025156076.png
PSプロンプト
まず問題を理解し、問題を解決するための計画を立てましょう。そして、計画を実行し、ステップバイステップで問題を解決しましょう
PS+プロンプト
PSプロンプトに2つの指示を加えて改良したもの
「関連する変数とそれに対応する数値を抽出する」
「中間結果を計算する(計算と常識に注意を払う)」
まず問題を理解し、関連する変数とそれに対応する数値を抽出し、計画を立てましょう。次に、計画を実行し、中間変数を計算することに注意して(正しい数値計算と常識に注意して)、問題を一歩ずつ解決し、答えを示しましょう。
https://scrapbox.io/files/65a0a6c787c8c6002382b9ed.png
論文を読んで感じたこと
PS+プロンプトの精度すごい!
数学推論やその他の推論(Table3,4)でも、Zero-shotなのに、Few-Shot CoTと同じくらいの性能じゃん!
LLMがタスクを実行するために、変数定義と計画はとても大切
これがないと、ステップごとの推論ステップに、エラーが出てしまう。(Figure5)
2.2の回答抽出するためのプロンプトが参考になった。
ステップバイステップなどの指示を加えると、LLMが長ったらしい回答を生成してしまう
そのため、APIなどで数学の問題の正解を評価するときに、難しくなる(30!とか数字だけで答えてくれなくなり、答え合わせが大変)
そこで、このプロンプト
PS +プロンプトの結果や質問なども全てついきし、最後に【Therefore the answer(alabetic number) is】、と追記することで、数字で答えてくれるようになる。(Figure 2c)
https://scrapbox.io/files/65a09e8731a4b700244bec6d.png
数学の問題の評価をするときに、数字だけになってくれるため便利。
実験では、temperature0.7にし、10個の例を加えた。(ベースのManual CoTは、temperature0、例が8個)
https://scrapbox.io/files/65a0ac1c87c8c60023835ab1.png
ただ、実際のユースケースでは、10個も例を追加するのは非現実的。
このプロンプトが便利になるだろう(Table5)
https://scrapbox.io/files/65a0c032315fdc00241a0b68.png
まず問題を理解し、関連する変数とそれに対応する数値を抽出し、計画を立てましょう。
次に、計画を実行し、中間変数を計算することに注意して(正しい数値計算と常識に注意して)、問題を一歩ずつ解決し、答えを示しましょう。
実際に使うときは
code: md
Q: 放物線 y=-x^2+3x と x 軸で囲まれた図形の面積 S を求めてください。
A: まず問題を理解し、関連する変数とそれに対応する数値を抽出し、計画を立てましょう。 次に計画を実行し、中間変数を計算することに注意して(正しい数値計算と常識に注意して)問題を一歩ずつ解決し、答えを示します。
概要
LLMは最近、様々な自然言語処理(NLP)タスクにおいて印象的なパフォーマンスを発揮していることが示されています。複数ステップの推論タスクに対処するために、Few-ShotのCoT (Chain-of-Thought)プロンプトは、手作業で作成されたステップバイステップの推論デモンストレーションを含んでおり、これによりLLMは推論ステップを明示的に生成し、推論タスクの精度を向上させることができます。手作業を排除するために、ゼロショットCoTは、ターゲットの問題ステートメントと「ステップバイステップで考えよう」という入力プロンプトをLLMに結合します。ゼロショットCoTの成功にもかかわらず、計算エラー、欠落ステップエラー、意味理解エラーという3つの欠点が依然として存在します。欠落ステップエラーに対処するために、私たちはプランアンドソルブ(PS)プロンプトを提案します。 これは、まず全体のタスクを小さなサブタスクに分割する計画を立て、その計画に従ってサブタスクを実行するという2つのコンポーネントで構成されています。計算エラーに対処し、生成された推論ステップの品質を向上させるために、より詳細な指示を追加してPSプロンプトを拡張し、PS+プロンプトを導き出しました。私たちは提案したプロンプト戦略を3つの推論問題にまたがる10のデータセットで評価しました。実験結果から、私たちの提案するゼロショットプロンプトは、全てのデータセットにおいてゼロショットCoTを大幅に上回り、ゼロショット・プログラム・オブ・ソートプロンプトと同等かそれを超えるパフォーマンスを持ち、数学推論問題において8ショットCoTプロンプトと同等のパフォーマンスを持っていることが示されています。
Introduction
LLMは最近、さまざまな自然言語処理(NLP)タスクで非常に効果的であることが証明されました。以前の事前訓練済み言語モデル(PTMs)とは異なり、これらのLLMは通常、商業的な考慮と悪用の潜在的なリスクのためにモデルパラメータへのアクセスがないサービスとして提供されます。したがって、下流タスクのためのLLMのファインチューニングは困難です。代わりに、私たちは指示(またはトリガー文)を使用して埋め込まれた知識を活用することで、複雑な推論問題を解決するためにLLMの強力な推論能力を引き出します。これまでのところ、LLMは少数の例示例(すなわち、Few-Shot学習)に基づいて条件付けされることにより、または例示例なしで新しい問題を解決するためのプロンプト(すなわち、Zero-Shot学習)により、新しい推論問題を解決するための印象的な能力を示しています。 LLMを使用して複数ステップの複雑な推論タスクに取り組むために、Wei et al. (Chain of Thought (CoT)論文) は、Few-ShotのCoT (Chain-of-Thought)プロンプトを提案しています。これにより、LLMは最終的な答えを予測する前に中間推論ステップを明示的に生成することができます。これには、手動で段階的な推論デモンストレーションの例がいくつかあります。Kojima et al. (Zero-Shot CoT論文) では、ゼロショットCoTは、手作りの例をプロンプトに必要とせず、GPT-3などのLLMに与えられたターゲット問題に「ステップバイステップで考えましょう」と付け加えることでこのニーズを排除します。このシンプルなプロンプト戦略は驚くべきことに、LLMが少数ショットCoTプロンプトと同様のパフォーマンスを発揮することを可能にします。 ゼロショットCoTが複数ステップの推論タスクを解決する上で顕著な成功を収めたにもかかわらず、その結果は100個の算数テストのサンプルにおいて依然として3つの落とし穴を指摘しています(図1に示されているように):
(i)計算エラー(テスト例の7%):これらは間違った答えにつながる計算のエラーです;
(ii)欠落ステップエラー(テスト例の12%):これは中間推論ステップが特に多くのステップが関与する場合に欠落することがあります;
(iii)意味の誤解(テスト例の27%):問題の意味理解と推論ステップの一貫性に関するエラーがあり、これはLLMの能力不足によって引き起こされる可能性があります。
https://scrapbox.io/files/65a00a8cf7a7f9002416ef1d.png
ゼロショットCoTによって引き起こされる推論ステップの欠落の問題に対処するために、私たちはPlan and Solve(PS)プロンプトを提案します。これは、まず全体のタスクを小さなサブタスクに分割する計画を立て、その計画に従ってサブタスクを実行するという2つのコンポーネントで構成されています。私たちの実験では、単にゼロショットCoTの「ステップバイステップで考えましょう」を「まず問題を理解し、問題を解決するための計画を立てましょう。そして、計画を実行し、ステップバイステップで問題を解決しましょう」と置き換えます。 https://scrapbox.io/files/65a00c5c95a6d80022495708.png
ゼロショットCoTの計算エラーに対処し、生成された推論ステップの品質を向上させるために、PSプロン プトにより詳細な指示を追加します。具体的には、「関連する変数とそれに対応する数値を抽出する」と「中間結果を計算する(計算と常識に注意を払う)」という指示を拡張します。このプロンプトバリアントはPS+プロンプト戦略と呼ばれています。
https://scrapbox.io/files/65a00cbe2b49ee0023e6e1b3.png
その単純さにもかかわらず、PS+戦略は生成された推論プロセスの品質を大幅に向上させます。さらに、このプロンプト戦略は、数学推論以外のさまざまな問題を解決するために簡単にカスタマイズすることができます。これには、常識的な推論と象徴的な推論の問題が含まれます。
全体として、私たちの結果は、(a)ゼロショットPSプロンプトは、ゼロショットCoTプロンプトよりも高品質な推論プロセスを生成する能力があることを示唆しています。そして、(b)ゼロショットPS+プロンプトは、手動の少数ショットCoTプロンプトを上回る可能性があることを示唆しています。これは、LLMでの推論を引き出すための新しいCoTプロンプトアプローチのさらなる開発を促すことを期待しています。
Plan and Solve Prompt
概要
私たちはPSプロンプトという新しいゼロショットCoTプロンプト方法を紹介します。これにより、LLMは与えられた問題を解決するための計画を明示的に立て、入力問題の最終回答を予測する前に中間推論プロセスを生成することができます。以前の少数ショットCoTアプローチとは対照的に、ステップバイステップの少数ショットデモンストレーションの例がプロンプトに含まれているわけではありません。ゼロショットPSプロンプト方法ではデモンストレーション例が必要なく、プロンプトには問題自体と単純なトリガー文が含まれています。
ゼロショットCoTと同様に、ゼロショットPSプロンプトは2つのステップで構成されています。
ステップ1では、プロンプトテンプレートを使用して推論を行い、問題の推論プロセスと答えを生成します。
ステップ2では、「したがって、答え(アラビア数字)は」といった回答抽出プロンプトを使用して、評価のために答えを抽出します。
2.1 ステップ1:推論生成のためのプロンプト
入力問題を解決し、誤った計算と欠落した推論ステップによるエラーを避けるために、このステップは以下の2つの基準を満たすテンプレートを構築することを目指しています。
テンプレートは、LLMにサブタスクを特定し、それらのサブタスクを達成するように促すべきです。
テンプレートは、LLMに計算と中間結果により注意を払うように導き、それらができる限り正しく実行されるようにするべきです。
最初の基準を満たすために、私たちはゼロショットCoTに従い、入力データの例をシンプルなテンプレート「Q: 【X】A:【T】」でプロンプトに変換します。
具体的には、入力スロット【X】には入力問題のステートメントが含まれ、手作りの指示が入力スロット【T】に指定されており、LLMが計画を含む推論プロセスを生成するように促します。
ゼロショットCoTでは、入力スロット【T】の指示にはトリガー指示「step by stepで考えましょう」が含まれています。
私たちのゼロショットPSプロンプト方法では、代わりに「計画を立てる」と「計画を実行する」という指示が含まれています(Figure. 2(b)参照)
https://scrapbox.io/files/65a012fccad9ef0024f14375.png
したがって、プロンプトは「Q: 【X】. A: まず問題を理解し、問題を解決するための計画を立てましょう。次に、計画を実行し、ステップバイステップで問題を解決しましょう」となります。
その後、上記のプロンプトをLLMに渡し、LLMはその後推論プロセスを出力します。ゼロショットCoTに従い、私たちの方法はデフォルトで出力を生成するために貪欲なデコーディング戦略(1つの出力チェーン)を使用します。
第二の基準を満たすために、私たちはより詳細な指示を含む計画ベースのトリガー文を拡張します。
具体的には、「計算に注意を払う」をトリガー文に追加して、LLMに可能な限り正確に計算を行うよう要求します。
必要な推論ステップの欠落によるエラーを減らすために、「関連する変数とそれに対応する数値を抽出する」を含めて、LLMに入力問題のステートメントに関連する情報を無視しないよう明示的に指示します。
つまり、こういうプロンプト
まず問題を理解し、関連する変数とそれに対応する数値を抽出し、計画を立てましょう。
その後、計画に従って計算し、中間結果に注意を払いながら問題を一歩一歩解決し、答えを示します。
私たちは、LLMが関連する重要な変数を省略すると、関連する推論ステップを見逃す可能性が高くなると仮定しています。Figure 5に示される変数の生成コンテンツと欠落した推論ステップエラーの相関分析は、この仮定を実証的に支持しています(相関値は0より小さい)。
https://scrapbox.io/files/65a0c40e31a4b7002450141b.png
変数定義と計画の存在は、計算エラーと欠落推論ステップエラーと負の相関があることが観察される。
つまり、PS+プロンプトは、LLMのパフォーマンスを向上させる
さらに、「中間結果を計算する」をプロンプトに追加して、LLMが関連する重要な推論ステップを生成する能力を向上させます。Figure.3(b)に示される特定の例がこれを示しています。ステップ1の最後に、LLMは答えを含む推論テキストを生成します。たとえば、Figure3(b)の生成された推論テキストには「グレースとアレックスの合計体重 = 125 + 498 = 623ポンド」とあります。トリガー文に具体的な記述を追加する戦略は、複雑な推論におけるゼロショットパフォーマンスを改善する新しい方法を示しています。
https://scrapbox.io/files/65a0970fb0b9b700253f7b58.png
2.2 ステップ2:回答抽出のためのプロンプト
ゼロショットCoTと同様に、ステップ2では、LLMにステップ1で生成された推論テキストから最終的な数値回答を抽出させるための別のプロンプトを考案します。このプロンプトには、最初のプロンプトに続くLLM生成の推論テキストに回答抽出指示を付け加えます。この方法により、LLMは望ましい形式で最終回答を返すことが期待されます。
Figure3(b)の例に基づいて、ステップ2で使用されるプロンプトには「Q: グレースの体重は125ポンド...変数:グレース:125ポンド...回答:グレースとアレックスの合計体重 = 125 + 498 = 623ポンド。したがって、答え(アラビア数字)は」と含まれます。この例において、LLMによって返される最終回答は「623」です。
https://scrapbox.io/files/65a09e8731a4b700244bec6d.png
3 実験セットアップ
3.1 ベンチマーク
提案された方法は、推論問題の3つのカテゴリーからの10のベンチマークデータセットで評価されます:
算数推論:(1) 人間の問題作成者によって作成された高品質で言語的に多様な小学校の算数の言葉の問題を含むGSM8Kデータセット、(2) 別の既存のデータセットからの問題群に簡単な変更を加えて4年生レベルの学生向けの1つの未知の算数言葉の問題を含むSVAMPベンチマーク、(3) 複数の推論ステップと操作が必要な算数言葉の問題を含むMultiArithデータセット、(4) 足し算と引き算の算数言葉の問題を含むAddSubデータセット、(5) 自然言語の理由付けを含む代数言葉の問題を含むAQUA(Ling et al., 2017)データセット、および(6) 負でない有理数と1つの変数に対する複数の数学演算を含む小学校の代数言葉の問題を含むSingleEqデータセット; 常識推論:(7) 正しい答えを得るために異なるタイプの常識知識が必要な選択式質問を含むCSQAベンチマークデータセット、および(8) 複数ステップの推論が必要だが、推論ステップが与えられていない質問を含むStrategyQAベンチマークデータセット。したがって、これらは推測されるべきです; https://scrapbox.io/files/65a09f4105c1860024faa1a5.png
3.2 ゼロショットと少数ショットのベースライン
私たちは提案したゼロショットPSおよびPS+プロンプト方法を3種類のプロンプトベースラインと比較します:(1) ゼロショットベースライン。ゼロショットCoTおよびゼロショットPoTを含めます。前者は「ステップバイステップで考えましょう」というフレーズをデモンストレーション例なしでプロンプトに追加します。後者はLLM(主にOpenAI Codex1)を使用してPythonプログラムを生成し、生成されたプログラムをPythonインタープリタで実行して回答を導き出します;(2) 手動デモンストレーションを使用した少数ショット。Manual-CoT (Chain-of-Thought)は8つの手作りの例をデモンストレーションとして作成します。(3) 自動デモンストレーションを使用した少数ショット。Auto-CoTは、多様性を持つクラスタリングによって自動的に例を選択し、デモンストレーションを構築するためにゼロショットCoTを使用して推論チェーンを生成します。 3.3 実装
Auto-CoTに従い、私たちは公共のGPT-3(175B)をバックボーン言語モデルとして使用します。これは公開APIを持つ最も広く使用されているLLMの一つです。text-davinci-003はtext-davinci-002のアップグレードバージョンであり、より高品質な文章を生成し、より複雑な指示に対応し、より長い形式のコンテンツ生成をよりよく行えるため、本論文ではGPT-3のtext-davinci-003エンジンを使用した結果を報告します。私たちは貪欲なデコーディング戦略のために実験全体で温度を0に設定します。また、少数ショットのベースラインであるManual-CoTおよびAuto-CoTも含め、MultiArith、GSM8K、AddSub、SingleEq、SVAMPには8つのデモンストレーション例を、AQuAおよびLast Lettersには4つの例を、CSQAには7つの例を、StrategyQAには6つの例を使用します。これは元の論文、Wei et al.(2022b)およびZhang et al.(2022)で示唆されている通りです。評価指標に関しては、Manual-CoT(Wei et al., 2022b)に従い、データセット全体でのすべての方法の精度を報告します。 4 実験結果
4.1 主な結果
算数推論
表2は、算数推論データセットにおける私たちの方法と既存のゼロショット及び少数ショット方法の精度比較を報告しています。ゼロショット設定では、私たちのPS+プロンプト(つまり、より詳細な指示を持つPSプロンプト)は、すべての算数推論データセットでゼロショットCoTを大きなマージンで一貫して上回っています。具体的には、PS+プロンプトはGSM8Kを除くすべてのデータセットでゼロショットCoTを少なくとも5%改善しています。GSM8Kでは2.9%の改善を見ています。この例外は、GSM8Kが言語の複雑さの観点からより困難なデータセットであるためかもしれません。PSプロンプトもすべてのデータセットでゼロショットCoTを上回り、ゼロショットCoTよりも2.5%高い平均精度を楽しんでいます。
https://scrapbox.io/files/65a0a6c787c8c6002382b9ed.png
もう一つの競争力のあるゼロショットベースラインであるPoTと比較すると、PS(+)およびPSプロンプトのパフォーマンスは依然として印象的です。PS+プロンプトは6つの算数データセットのうち5つでPoTを上回ります。PSプロンプトも3つの算数データセットでPoTを上回ります。この結果は、プロンプトにより詳細な指示を追加することで、LLMからより高品質な推論ステップを効果的に引き出すことができることを示唆しています。
Few-Shot、Manual CoTおよびAuto-CoTと比較して、PS+プロンプトは平均精度(76.7%)がManualCoT(77.6%)よりわずかに低いものの、Auto-CoT(75.9%)よりも高いです。これは不公平な比較ではありますが、この結果はゼロショットプロンプトが少数ショットCoTプロンプトを上回る可能性があり、LLMでの推論を効果的に引き出すための新しい方法を開発することを期待させます。 常識推論
表3は常識推論データセットであるCommonsenseQAとStrategyQAの結果を示しています。この比較では、私たちのより優れたゼロショットPS+プロンプト戦略のみを含めています。ゼロショットPoTはこの問題では機能しないため除外されています。PS+プロンプトはこの問題でFew-Shot-CoT(Manual)より劣っていますが、CommonsenseQA(71.9%対65.2%)とStrategyQA(65.4%対63.8%)のデータセットで一貫してゼロショットCoTを上回っています。 https://scrapbox.io/files/65a0a8d6758b99002468329d.png
記号的推論
表4は、記号的推論データセットであるLast Letter ConcatenationとCoin Flipにおいて、PS+プロンプトがゼロショットCoTおよび少数ショットCoTと比較してどのような精度を示すかを示しています。この問題には設計されていないため、ゼロショットPoTは再び除外されています。Last Lettersでは、私たちのゼロショットPS+プロンプト(75.2%)はManual-CoT(70.6%)およびゼロショットCoT(65.2%)を上回っています。Coin Flipでは、ゼロショットPS+プロンプト(99.6%)はManual-CoT(100.0%)よりわずかに悪いものの、ゼロショットCoT(96.8%)を良いマージンで上回っています。 https://scrapbox.io/files/65a0a9476dd226002367c12f.png
4.2 分析
自己一貫性を持つプロンプトの結果
自己一貫性(Self-consistency(Self-Consistency論文)は、N個の推論結果を生成し、多数決によって最終的な回答を決定することで、LLMの出力のランダム性を減らすために提案されました。SCを使用すると、通常、メソッドの結果は一貫性があり、より良いものが期待されます。そのため、私たちはZero-shot PS+プロンプトにSCを使用してGSM8KおよびSVAMPデータセットで評価します。SCの実験では温度を0.7、Nを10に設定しました。 Figure.4は、SC(73.7%および84.4%)を持つPS+プロンプトがSCなし(58.7%および75.7%)のPS+プロンプトを大幅に上回ることを示しています。これはGSM8KおよびSVAMPでそれぞれ評価されます。前者はまた、SCを持つゼロショットCoT(70.7%および81.7%)をGSM8KおよびSVAMPで一貫して上回りますが、ゼロショットCoTも自己一貫性アプローチで改善が見られます。
https://scrapbox.io/files/65a0ac1c87c8c60023835ab1.png
プロンプトの効果
表5は、6つの異なる入力プロンプトのパフォーマンスの比較を示しています。プロンプト1と2はそれぞれゼロショットCoTとゼロショットPoTで使用されます。残りは、貪欲なデコーディング戦略を使用したゼロショットPS+プロンプト戦略のステップ1で使用されるプロンプトのバリエーションです。変数と数値抽出を含むプロンプト3がゼロショットCoTのプロンプト1よりも性能が悪いことが観察されます。その理由は、プロンプト3が計画を立てて実行するための指示を含んでいないためです。しかし、中間結果の計算、計画設計、実装に関するより多くの指示を追加すると、ゼロショットPS+の他のプロンプトは良好に機能します。上記の結果から、LLMがプロンプトにLLMを導くためのより詳細な指示が含まれている場合、高品質の推論テキストを生成する能力があると結論付けられます。異なる推論問題のためのさらなるプロンプトは、付録A.1で見つけることができます。 https://scrapbox.io/files/65a0c032315fdc00241a0b68.png
エラー分析
ゼロショットPS+プロンプトが計算エラーや推論ステップの欠落エラーに与える影響を定性的に評価するために、GSM8Kデータセット上のエラーの分布を調べます。まず、GSM8Kから無作為に100問をサンプルし、ゼロショットCoT、ゼロショットPS、ゼロショットPS+プロンプト戦略を使用して推論テキストを生成し、回答を抽出します。ゼロショットCoTは46の問題に対して不正確な最終回答を生成しました。ゼロショットPSは43問、ゼロショットPS+は39問です。その後、これらの問題のエラータイプを分析し、決定します。これは表6に示されています。
https://scrapbox.io/files/65a0c2cb0b093e0024e80d05.png
分析結果から、PS+プロンプトが計算(5%)と欠落ステップ(7%)のエラーが最も少なく、意味理解(Semantic)エラーはゼロショットCoTと同等であることが示されています。ゼロショットPSはわずかに多くのエラーがありますが、ゼロショットCoTよりもまだ良いです。彼らのプランアンドソルブ・プロンプトは、LLMが明確で完全な推論ステップを生成するための効果的なガイドです。さらに、PS+プロンプトにおける追加の詳細な指示(つまり、「関連する変数とそれに対応する数値を抽出する」および「中間変数を計算する」)は、LLMがより少ない計算エラーにつながる高品質な推論ステップを生成することを可能にします。
生成された推論とエラータイプの相関分析
PS+プロンプトがエラータイプに与える影響をより深く理解するために、生成された推論のサブパーツとエラータイプの相関を調べます。具体的には、生成された推論テキスト内の変数定義、推論計画、および解決策の存在を分析し、それらを3つのエラータイプと相関させます。この分析研究に使用される問題のセットは、以前のエラータイプ分析で使用されたものと同じです。Figure.5は、変数定義、計画、解決策の存在と3種類の異なるエラータイプの相関行列を示しています。変数定義と計画の存在は、計算エラーと欠落推論ステップエラーと負の相関があることが観察されます。ゼロショットPS+プロンプトは、計算エラーと欠落推論ステップエラーを減らすことにより、数学的推論問題におけるLLMのパフォーマンスをさらに向上させることができます。
https://scrapbox.io/files/65a0c40e31a4b7002450141b.png
プランの存在をPS予測で探る
各PSによる予測に計画が含まれているかを確認するために、100のデータ例を無作為にサンプリングし、それらの対応する予測を調査しました。私たちの分析によると、100の予測のうち90が実際に計画を組み込んでいました。この観察は、GPT-3.5やGPT-4などの最近のLLMにおける強力な計画能力の出現を示しています。 5 関連研究
5.1 NLPにおける推論
複雑な推論問題はNLPモデルにとって挑戦的であり、そのような問題には数学的推論(数学的概念の理解、計算、および多段階推論が必要)、常識的推論(常識知識に基づく判断が必要)、論理的推論(公式論理ルールを適用してシンボルを操作する能力が必要)が含まれます。LLMの登場以前には、Talmor et al.(2019)はファインチューニングされたGPTモデルによって生成された説明を使用してNLPモデルをトレーニングし、トレーニングされたモデルが常識的なQA問題でより良いパフォーマンスを発揮することを発見しました。Hendrycks et al.(2021)は、根拠を持つラベル付きの事前訓練された言語モデルをファインチューニングしようとしましたが、これらのファインチューンされたモデルは高品質の推論ステップを容易に生成できないことがわかりました。最近のWei et al.(2022a)の研究では、GPT-3(Brown et al., 2020)やPaLM(Chowdhery et al., 2022)など、数十億のパラメータにスケールアップされたLLMが強力な推論能力を示すことが示されました。これらのLLMは、いくつかのデモンストレーション例を使用すると、異なるNLPタスクで印象的なパフォーマンスを発揮できます。しかし、これらのモデルは多段階推論が必要な問題では依然として不十分なパフォーマンスを示します。これは、提供された少数の例がLLMの能力を引き出すには不十分であるためかもしれません。 5.2 プロンプト方法
LLMの推論能力を活用するために、Wei et al.(2022b)はCoT (Chain-of-Thought)プロンプトを提案し、入力質問への回答の前に複数の推論ステップを追加しました。この単純な少数ショットプロンプト戦略を使用することで、LLMは複雑な推論問題ではるかに優れたパフォーマンスを発揮できます。その後、多くの研究(Wang et al., 2022a; Suzgun et al., 2022; Shaikh et al., 2022; Saparov and He, 2022)が、プロンプト形式(Chen et al., 2022)、プロンプト選択(Lu et al., 2022)、プロンプトアンサンブル(Wang et al., 2022b; Li et al., 2022; Weng et al., 2022; Fu et al., 2022)、問題分解(Zhou et al., 2022; Khot et al., 2022; Dua et al., 2022; Press et al., 2022)、計画(Yao et al., 2022; Huang et al., 2022; Wang et al., 2023; Liu et al., 2023; Sun et al., 2023; Yao et al., 2023)など、さまざまな側面でCoTプロンプトの改善を提案しています。Chen et al.(2022)は、コード事前トレーニングを持つLLMを使用して計算から推論を切り離す根拠としてプログラムを作成するPoTプロンプトを導入しました。手作業を排除するために、Kojima et al.(2022)は例を使用せずに推論ステップ生成を引き出すZero-shotCoTを提案しました。デモンストレーション例の利点を活用し、手作業を最小限に抑えるために、Zhang et al.(2022)はAuto-CoTを設計しました。これは、まず与えられたデータセットをクラスタリングしてk例を自動的に取得します。その後、選択された例のための根拠を生成するためにゼロショットCoTに従います。最後に、生成された根拠を選択された例にCoTプロンプトとして追加することにより、デモンストレーション例が構築されます。 私たちの研究は、ゼロショットアプローチでのLLMによる多段階推論の引き出しに焦点を当てていることで上記の研究とは異なります。私たちはLLMに複雑な推論タスクを複数の推論ステップに分解する計画を書くように依頼します。さらに、推論ステップで明らかなエラーを避けるために、プロンプトに詳細な指示を導入します。
6 結論
本論文では、ゼロショットCoTが依然として3つの落とし穴に苦しんでいることが分かります:
計算エラー、欠落推論ステップエラー、意味理解エラーです。
これらの問題に対処するために、Plan and Solve戦略(PSおよびPS+プロンプト)を導入しました。これらは、LLMに全体のタスクをより小さなサブタスクに分割する計画を立てさせ、その計画に従ってサブタスクを実行させる新しいゼロショットプロンプト方法です。3種類の推論問題にまたがる10のデータセットでの評価では、PS+プロンプトが以前のゼロショットベースラインを上回り、複数の算数推論データセットで少数ショットCoTプロンプトと同等のパフォーマンスを発揮しています。全体として、私たちの結果は、(a)ゼロショットPS+プロンプトは、PSプロンプトがLLMに正しい推論を行うためのより詳細な指示を提供できるため、ゼロショットCoTプロンプトよりも高品質な推論プロセスを生成することができることを示唆しています。そして、(b)ゼロショットPS+プロンプトは手動の少数ショットCoTプロンプトを上回る可能性があり、これはLLMでの推論を引き出すための新しいCoTプロンプトアプローチのさらなる開発を促すことを期待しています。さらに、PS(+)プロンプトは推論タスク以外にも使用できる一般的なアイデアであり、計画を洗練することも興味深いアイデアです。これらは将来の作業に残されています。 7 制限
この作業には2つの制限があります。第一に、正しい推論ステップを生成するためにLLMを導くプロンプトを設計するための労力が必要です。GPT-3モデルはプロンプトの表現に敏感です。したがって、プロンプトを慎重に設計する必要があります。第二に、提案されたPlan and Solveは計算エラーと欠落推論ステップエラーに対処するのに役立ちますが、意味理解エラーは依然として残っています。将来的には、LLMのアップグレードではなく、プロンプトによって意味理解エラーにどのように対処するかを探求する予定です。 8 倫理
私たちは、AQuA(Ling et al., 2017)、GSM8K(Cobbe et al., 2021)、MultiArith、AddSub、SingleEq、SVAMP(Patel et al., 2021)、2つの常識推論タスク(CommonsenseQA(Talmor et al.、2019)およびStrategyQA(Geva et al., 2021))、および2つの象徴的タスク(Last LetterおよびCoin Flip(Wei et al., 2022b))を含む6つの数学推論データセットで実験を行いました。ここでGSM8KとSVAMPはMITライセンスコードを、AQUAとStrategyQAはApache-2.0コードを使用し、残りのデータセットは特定されていません。
提案されたプロンプトは他の個人に関する個人情報を収集および使用しません。私たちが使用したプロンプトは付録にリストされています。この作業でのプロンプトには、いかなる個人またはグループに対する差別的な言葉は含まれていません。この作業では、プロンプトが他の人々の安全に悪影響を与えることはありません。